清华教授李丹谈大模型:准确率较低 开源是发展方向

政府采购信息网 吴劲珉 2023-07-20 17:15:41

今年以来,以生成式人工智能服务(AIGC)、人工智能训练大模型为标志的技术应用如雨后春笋般快速发展。在7月18日的第22届中国互联网大会人工智能安全论坛上,清华大学教授李丹分享了其科研团队在通用大语言模型在网络安全领域的能力评估研究结果。

李丹

​清华大学教授李丹。(网络图片)

李丹教授团队通过对15个公开大模型的评测研究得出结论,当前的通用大模型并未使用网络安全领域的专业数据进行精调,整体准确率较低,没有一个大模型能达到80%。“从这个结果来看,非常有必要基于这种通用大语言模型,来进一步训练安全领域的垂直大模型,因为它们还没有满足我们对安全领域的要求,但已经展现了潜力。”

大语言模型在安全领域的应用能力训练

业界曾有人直言,ChatGPT这种大语言模型对于人工智能的意义,相当于个人电脑发展过程中图形应用界面出现,或者计算机网络WWW技术出现。根据中国人工智能大模型地图研究报告,今年5月28日,中国已发布了10亿参数规模以上的大模型,而美国和中国占全球大模型总量的80%以上。

李丹教授长期关注网络安全和网络智能方面的研究。在他看来,国家出台办法采取支持和包容的态度鼓励生成式人工智能技术发展,大语言模型应用于网络安全领域,能够帮助专业软件快速检测和响应威胁。从数字员工到智能语音系统,开源或公开的大模型将是通用基础模型的发展方向。

目前,将大语言模型应用于安全领域是中外发展的基本动态。在国内,启明星辰、天融信、深信服、瑞星、墨云科技等公司也都将大语言模型用于网络安全工作。部分公司专门训练针对网络安全领域的垂直大模型,有的则是将大语言模型应用于他们的许多产品形态中,以更好地解决产品问题。

“实际上,大家更多关注的是大语言模型在哪些应用场景下能够带来变量或增量。”李丹介绍说,代码漏洞挖掘、网络安全运维机器人和自主进化攻防演练是大语言模型在网络安全领域的三大应用场景。例如,在代码漏洞挖掘的场景下,大语言模型不仅集成了自然语言,还有很多代码可以高效处理数据。

“利用学习能力和脱敏能力,快速发现代码里的潜在漏洞,并根据上下文和目标自动给出合适的代码修改方案,提高代码的合理性。这个能力可用于攻防两个方面,包括对已知漏洞进行检测。”李丹表示,基于通用大语言模型的文本理解生成能力和代码理解能力,通过网络安全领域的专家规则引擎,以及安全情报、样本库、知识库等进行精调,形成一个网络安全领域的垂直大模型,可以帮助用户进行情报分析和网络安全运维的知识问答等。

“训练这些大模型,需要了解现有通用大模型在网络安全方面的能力。”李丹团队进行初步研究发现,全球众多大语言模型中做AI评测的单位和研究人员非常多,他们从多个维度评测了大语言模型的各种能力。

自主对抗训练提升通用大模型准确率

据悉,李丹教授团队正在尝试实现基于大语言模型的红队和蓝队自主对抗训练。他表示,由于大语言模型具备资料、情报的学习和融合能力,以及随着技术能力和资源集成能力的逐步发展,大语言模型本身具备了自动对抗的基础,自主进化攻防演练可能会为网络安全领域带来许多新的技术发展机会和变量。

“我们可以将攻防工具集、攻防资源池以及自动发现的一些漏洞等,分别集成到红蓝队进行自动对抗。训练这些大模型,需要了解现有通用大模型在网络安全方面的能力。”李丹团队将题目直接构造一个提示语文本输入到大语言模型中进行评测,经过评估模型输出得出答案。

“通过提问有些大模型可以给出答案,而有些大模型不知道是做选择题,会给出奇怪的答案。”李丹团队初步研究发现,对于同一种模型的参数量越大表现越好,此举说明这些模型在安全方面的能力并非随机的。

此外,随着训练量和参数量的增加,网络安全能力也会增强。“模型参数量越大能力越强,在不同模型之间进行比较也不尽相同。例如,IIama-65b模型能力的评测结果是超过Glm-130b的能力。这可能是国内模型在网络安全和英文语调方面的训练不足。”

事实上,通过给出更多提示并不能让大模型的性能有所提高,甚至对某些模型会产生负面效果。对上下文理解能力有限,反而误导了一些模型的推理。

“让我们感到意外的是,对这两个模型进行比较后,发现指令调优后,它在网安领域的理解能力反而下降了。这说明对现有很多通用模型进行指令调优,不见得能提升它在某些垂直领域的能力。”李丹表示,如果要训练网络安全能力,有必要开展网络安全领域的垂直大模型。

垂直领域大模型需要解决三个层次的问题和关键技术,主要分为数据集构造、安全领域大模型的训练和评价,以及对齐和行为方面的集成,包括外部工具的构造,如网安领域的知识图谱,并在大模型与知识图谱之间进行融合等。

广告

商机 · 数据 · 参数 · 产品——IT采购搭起买卖桥梁。

IT采购

网友评论
个人头像
  • 暂无评论,欢迎您发表观点!
意见反馈
反馈类型:
问题描述:
0/500
联系方式:
0/30
提交